今天也會是比較輕鬆的內容~我們要開始用文字生成影像服務來產生影像了!
由於 DALL·E 2 必須付費才能使用,所以今天介紹的會是串接 DALL·E 2 模型的 Bing Image Creator,也會嘗試不同提示詞(prompt)對於影像生成的效果。
Bing Image Creator 只要有 Microsoft 帳號即可使用,在登入之後應該就可以看到以下畫面:
在「探索構想」的頁籤已經提供一些效果不錯的生成影像範例和他們對應的 prompt,例如將滑鼠移到彩色蝴蝶的影像,就可以看到用來生成這張影像的 prompt 是 "A butterfly with rainbow wings landing on a flower"(如下圖)
而在「創作」的頁籤就可以直接輸入 prompt,按下「建立」即可產生影像。如果還想不到要輸入什麼樣的 prompt,可以先嘗試範例的 "A butterfly with rainbow wings landing on a flower",產生影像約需等待 1 分鐘~
噠啦~以下就是生成影像的結果,Bing Image Creator 一次會產生四張圖,解析度都是 1024x1024 無法調整。值得注意的是,雖然我們輸入和範例一模一樣的 prompt,但模型因為隨機性的關係並不會產生一模一樣的圖,每一次都是重新創作
而右側的欄位會保留我們最近生成影像的結果,不過保留的結果有限,如果有覺得滿意的影像還是要盡早存下~
點擊個別一張圖片,就會有它的相關資訊,可以選擇以連結的方式分享,也可以儲存到 Microsoft Bing 的空間,或直接下載到本機~
Bing Image Creator 產生的影像固定為方形,是應用上沒那麼便利的地方。其實 DALL·E 2 有提供將原本方形的影像擴展成其他長寬比的影像,不過這就有待有心人付費解鎖了
DALL·E 2 的訓練資料雖然包含不同語言,但推測還是以英文居多,可能用英文的提示詞產生影像的效果會比較好。在這裡我們可以做個簡單的實測~
在這裡,我嘗試讓 Bing Image Creator 用中文和英文意義相同的 prompt 分別產生影像~
英文:A chubby cat lay on the grass
中文:一隻躺在草地上的圓胖的貓
一起來看看結果吧!
英文 prompt "A chubby cat lay on the grass" 產生影像結果(共嘗試產生影像三次):
中文 prompt「一隻躺在草地上的圓胖的貓」產生影像結果:
從目前的測試來說,使用中英文 prompt 產生影像的效果都是不錯的(不過它們都還是簡單的 prompt),不過英文 prompt 得到的貓咪影像似乎有比較高的機率得到類似卡通圖的結果,而使用中文 prompt 得到的貓咪影像就比較接近照片。也許,不同語言描述同樣的物件或場景時,模型預設要畫的風格會有所不同,這是今天的測試觀察到比較有趣的地方~
如果不太會寫 prompt 怎麼辦呢?之前我在曾吉弘博士的生成式工具講座聽到一個不錯的想法,那就是用文字生成工具 ChatGPT 幫你產生適合的 prompt!
這裡,我想嘗試用 Bing Image Creator 產生一些書中描寫的場景~
首先,我從喜歡的散文中選擇了一段場景描寫的文字:
「遠遠就看到出口處的向日葵,正對著剛剛走出花之都公園的我們。更遠處的灑水器潑灑著水花,戀人絮語一般落在花田間,輝煌而短暫的流星雨,吸引所有人的注意。」
--林達陽《恆溫行李》
直接輸入這段文字,得到的生成影像是這樣的:
而我們可以用以下的方式,讓 ChatGPT 將文字轉換為適合輸入給 DALL·E 的 prompt:
再將產生的英文 prompt 輸入到 Bing Image Creator,得到的結果如下:
從以上的結果可以注意到,如果輸入的文字比較複雜,產生的影像可能就會包含一些看似相關但又不太成形的文字。除此之外,在原文中流星雨似乎是在比喻灑水器潑灑出的水花,直接輸入中文時模型就產生流星雨的場景,而轉換成英文 prompt 得到的影像就是花田灑水的景象。因此,使用轉換後的英文 prompt 產生的影像似乎比較精確一點~
不過由於這個比喻並沒有很明顯,本來就容易造成模型的誤導,所以在生成模型時,用明確的描述代替隱喻應該會更能產生精確的影像~